智能论文笔记

4-bit Conformer with Native Quantization Aware Training for Speech Recognition

Shaojin Ding , Phoenix Meadowlark , Yanzhang He , Lukasz Lew , Shivani Agrawal , Oleg Rybakov

分类：机器学习

2022-03-29

减少潜伏期和模型大小一直是实时自动语音识别（ASR）应用程序方案的重要研究问题。沿着这个方向，模型量化已成为压缩神经网络并降低计算成本的越来越流行的方法。大多数现有的实用ASR系统都采用训练后8位量化。为了在不引入额外的性能回归的情况下达到更高的压缩率，在这项研究中，我们建议开发具有本机量化培训的4位ASR模型，该模型利用天然整数操作有效地优化培训和推理。我们对基于最新构象体的ASR模型进行了两个实验，以评估我们提出的量化技术。首先，我们探讨了不同精度对重量和激活量化对LibrisPeech数据集的影响，并获得了与Float32模型相比，获得了7.7倍尺寸的无损4位构象异构体模型。此后，我们首次研究并揭示了在使用大型数据集训练的实用ASR系统上的4位量化的可行性，并产生了具有4位混合重量和8位权重的无损构象体ASR模型与FLOAT32模型相比，尺寸减小了5倍。

translated by 谷歌翻译

PokeBNN: A Binary Pursuit of Lightweight Accuracy

Yichi Zhang , Zhiru Zhang , Lukasz Lew

分类：机器学习 | 计算机视觉

2021-11-30

Top-1 ImageNet优化促进了可能在推理设置中不切实际的网络。二元神经网络（BNN）具有显着降低计算强度，但现有模型的质量低。为了克服这种缺陷，我们提出了PokeConv，一个二进制卷积块，这是通过添加多个剩余路径的技术提高BNN的质量，并调整激活函数。我们将其应用于Reset-50并优化Reset的初始卷积层，这很难二向化。我们命名由此产生的网络系列POKBNN。选择这些技术以产生最高1精度和网络成本的良好改进。为了使成本的联合优化以及准确性，我们定义算术计算工作（ACE），用于量化和二值化网络的硬件和能量启发成本度量。我们还确定需要优化控制二值化梯度近似的探索过的超参数。我们在高精度上建立了一种新的，强大的最先进（SOTA），以及常用的CPU64成本，ACE成本和网络大小指标。 ReactNET-ADAM是BNN中的先前SOTA，实现了7.9 ACE的70.5％的前1个精度。一小块的炭达到70.5％的前1个，成本降低超过3倍;一个较大的POKBNN以7.8 ACE获得75.6％的顶级1，在不增加成本的情况下，准确性提高超过5％以上。 JAX /亚麻和再现说明中的POKEBNN实现是开放的。

translated by 谷歌翻译

A System-Level View on Out-of-Distribution Data in Robotics

Rohan Sinha , Apoorva Sharma , Somrita Banerjee , Thomas Lew , Rachel Luo , Spencer M. Richards , Yixiao Sun , Edward Schmerling , Marco Pavone

分类：机器人 | 机器学习

2022-12-28

When testing conditions differ from those represented in training data, so-called out-of-distribution (OOD) inputs can mar the reliability of black-box learned components in the modern robot autonomy stack. Therefore, coping with OOD data is an important challenge on the path towards trustworthy learning-enabled open-world autonomy. In this paper, we aim to demystify the topic of OOD data and its associated challenges in the context of data-driven robotic systems, drawing connections to emerging paradigms in the ML community that study the effect of OOD data on learned models in isolation. We argue that as roboticists, we should reason about the overall system-level competence of a robot as it performs tasks in OOD conditions. We highlight key research questions around this system-level view of OOD problems to guide future research toward safe and reliable learning-enabled autonomy.

translated by 谷歌翻译

Resource frugal optimizer for quantum machine learning

Charles Moussa , Max Hunter Gordon , Michal Baczyk , M. Cerezo , Lukasz Cincio , Patrick J. Coles

分类：机器学习 | (统计)机器学习

2022-11-09

Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.

translated by 谷歌翻译

Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI & AIM 2022 Challenge: Report

Andrey Ignatov , Grigory Malivenko , Radu Timofte , Lukasz Treszczotko , Xin Chang , Piotr Ksiazek , Michal Lopuszynski , Maciej Pioro , Rafal Rudnicki , Maciej Smyl

分类：计算机视觉

2022-11-07

Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.

translated by 谷歌翻译

DAVE Aquatic Virtual Environment: Toward a General Underwater Robotics Simulator

Mabel M. Zhang , Woen-Sug Choi , Jessica Herman , Duane Davis , Carson Vogt , Michael McCarrin , Yadunund Vijay , Dharini Dutia , William Lew , Steven Peters

分类：机器人

2022-09-06

我们提出Dave Aquatic Virtual Environals（Dave），这是用于水下机器人，传感器和环境的开源仿真堆栈。传统的机器人模拟器并非旨在应对海洋环境带来的独特挑战，包括但不限于在空间和时间上变化的环境条件，受损或具有挑战性的感知以及在通常未探索的环境中数据的不可用。考虑到各种传感器和平台，对于不可避免地抵制更广泛采用的特定用例，车轮通常会重新发明。在现有模拟器的基础上，我们提供了一个框架，以帮助加快算法的开发和评估，否则这些算法需要在海上需要昂贵且耗时的操作。该框架包括基本的构建块（例如，新车，水跟踪多普勒速度记录仪，基于物理的多微型声纳）以及开发工具（例如，动态测深的产卵，洋流），使用户可以专注于方法论，而不是方法。比软件基础架构。我们通过示例场景，测深数据导入，数据检查的用户界面和操纵运动计划以及可视化来演示用法。

translated by 谷歌翻译

Deep learning automates bidimensional and volumetric tumor burden measurement from MRI in pre- and post-operative glioblastoma patients

Jakub Nalepa , Krzysztof Kotowski , Bartosz Machura , Szymon Adamski , Oskar Bozek , Bartosz Eksner , Bartosz Kokoszka , Tomasz Pekala , Mateusz Radom , Marek Strzelczak

分类：计算机视觉

2022-09-03

通过磁共振成像（MRI）评估肿瘤负担对于评估胶质母细胞瘤的治疗反应至关重要。由于疾病的高异质性和复杂性，该评估的性能很复杂，并且与高变异性相关。在这项工作中，我们解决了这个问题，并提出了一条深度学习管道，用于对胶质母细胞瘤患者进行全自动的端到端分析。我们的方法同时确定了肿瘤的子区域，包括第一步的肿瘤，周围肿瘤和手术腔，然后计算出遵循神经符号学（RANO）标准的当前响应评估的体积和双相测量。此外，我们引入了严格的手动注释过程，其随后是人类专家描绘肿瘤子区域的，并捕获其分割的信心，后来在训练深度学习模型时被使用。我们广泛的实验研究的结果超过了760次术前和504例从公共数据库获得的神经胶质瘤后患者（2021 - 2020年在19个地点获得）和临床治疗试验（47和69个地点，可用于公共数据库（在19个地点获得）（47和69个地点）术前/术后患者，2009-2011）并以彻底的定量，定性和统计分析进行了备份，表明我们的管道在手动描述时间的一部分中对术前和术后MRI进行了准确的分割（最高20比人更快。二维和体积测量与专家放射科医生非常吻合，我们表明RANO测量并不总是足以量化肿瘤负担。

translated by 谷歌翻译

A Practical Calibration Method for RGB Micro-Grid Polarimetric Cameras

Joaquin Rodriguez , Lew Lew-Yan-Voon , Renato Martins , Olivier Morel

分类：计算机视觉

2022-08-29

极化成像已应用于越来越多的机器人视觉应用中（例如，水下导航，眩光去除，脱落，对象分类和深度估计）。可以在市场RGB极化摄像机上找到可以在单个快照中捕获颜色和偏振状态的摄像头。由于传感器的特性分散和镜头的使用，至关重要的是校准这些类型的相机以获得正确的极化测量。到目前为止开发的校准方法要么不适合这种类型的相机，要么需要在严格的设置中进行复杂的设备和耗时的实验。在本文中，我们提出了一种新方法来克服对复杂的光学系统有效校准这些相机的需求。我们表明，所提出的校准方法具有多个优点，例如任何用户都可以使用统一的线性极化光源轻松校准相机，而无需任何先验地了解其偏振状态，并且收购数量有限。我们将公开提供校准代码。

translated by 谷歌翻译

HTML版本

Reliable Decision from Multiple Subtasks through Threshold Optimization: Content Moderation in the Wild

Donghyun Son , Byounggyu Lew , Kwanghee Choi , Yongsu Baek , Seungwoo Choi , Beomjun Shin , Sungjoo Ha , Buru Chang

分类：机器学习

2022-08-16

社交媒体平台难以通过内容审核来保护用户免受有害内容的影响。这些平台最近利用机器学习模型来应对每天大量的用户生成内容。由于节制政策因国家和产品类型而异，因此每项政策训练和部署模型是很常见的。但是，这种方法效率很低，尤其是当策略发生变化时，需要在移动的数据分布上重新标记并重新训练数据集。为了减轻这种成本降低，社交媒体平台经常采用第三方内容审核服务，这些服务提供了多个子任务的预测分数，例如预测未成年人，粗鲁的手势或武器的存在，而不是直接提供最终的调节决策。但是，还没有广泛探索从多个子任务的预测分数中做出可靠的自动审核决策。在这项研究中，我们制定了内容节制的现实情况，并引入了一种简单而有效的阈值优化方法，该方法搜索了多个子任务的最佳阈值，以以具有成本效益的方式做出可靠的适度决策。广泛的实验表明，与现有的阈值优化方法和启发式方法相比，我们的方法在内容节制中表现出更好的性能。

translated by 谷歌翻译

A Time-to-first-spike Coding and Conversion Aware Training for Energy-Efficient Deep Spiking Neural Network Processor Design

Dongwoo Lew , Kyungchul Lee , Jongsun Park

分类：神经与进化计算 | 机器学习

2022-08-09

在本文中，我们提出了一种节能的SNN体系结构，该体系结构可以通过提高的精度无缝地运行深度尖峰神经网络（SNN）。首先，我们提出了一个转换意识培训（CAT），以减少无硬件实施开销而无需安排SNN转换损失。在拟议的CAT中，可以有效利用用于在ANN训练过程中模拟SNN的激活函数，以减少转换后的数据表示误差。基于CAT技术，我们还提出了一项首要尖峰编码，该编码可以通过使用SPIKE时间信息来轻巧计算。支持提出技术的SNN处理器设计已使用28nm CMOS流程实施。该处理器的推理能量分别为486.7UJ，503.6UJ和1426UJ的最高1级准确性，分别为91.7％，67.9％和57.4％，分别为CIFAR-10，CIFAR-100和TININE-IMIMAGENET处理。16具有5位对数权重。

translated by 谷歌翻译